Versions:
Ollama, published by the同名开发团队,是一款专为本地部署和运行大型语言模型(LLM)而设计的开源工具,归类于开发者工具与机器学习框架。其核心目标是在不依赖云端算力的前提下,让研究者和工程师在个人电脑或私有服务器上快速拉起并交互式使用 Llama 2、Mistral、CodeLlama 等主流模型。通过一条命令即可拉取预量化镜像,自动配置 GPU/CPU 混合推理环境,并暴露兼容 OpenAI 的 HTTP 端点,方便现有聊天客户端、IDE 插件或自动化脚本无缝接入。对于需要离线知识库问答、私有代码助手、本地化多轮对话原型验证等场景,Ollama 提供了从模型下载、版本切换、参数微调、到并发服务托管的完整工作流;同时支持多模型并行与容器级隔离,可在同一台机器上为不同业务分配独立的上下文与算力配额。当前版本 0.18.3 修复了 CUDA 12 显存泄漏并提升了 Apple Silicon 的推理吞吐量,而项目至今已累计发布 139 个迭代,持续保持周更节奏,确保兼容最新社区模型格式与操作系统内核。软件采用 MIT 许可证,允许商业二次分发。Ollama 现可在 get.nero.com 免费获取,下载通道对接受信任的 Windows 包源(如 winget),始终推送最新版本,并支持批量安装多款应用。
Tags: